A linguagem natural se mostrou mais complexa do que o necessário — e por um bom motivo
As línguas humanas são fenômenos complexos. Cerca de 7.000 línguas são faladas no mundo todo, algumas com apenas alguns falantes nativos, enquanto outras, como o chinês, o inglês, o espanhol, são faladas por bilhões de pessoas.

Exemplos de enunciados descrevendo uma imagem em inglês e em várias línguas hipotéticas. Crédito: Nature Human Behaviour (2025). DOI: 10.1038/s41562-025-02336-w
As línguas humanas são fenômenos complexos. Cerca de 7.000 línguas são faladas no mundo todo, algumas com apenas alguns falantes nativos, enquanto outras, como o chinês, o inglês, o espanhol e o hindi, são faladas por bilhões de pessoas. Apesar de suas profundas diferenças, todas compartilham uma função comum: transmitir informações combinando palavras individuais em frases — grupos de palavras relacionadas — que são então reunidas em orações. Cada uma dessas unidades tem seu próprio significado, que, em conjunto, formam um todo compreensível.
"Na verdade, trata-se de uma estrutura muito complexa. Já que o mundo natural tende a maximizar a eficiência e conservar recursos, é perfeitamente razoável perguntar por que o cérebro codifica informações linguísticas de uma maneira aparentemente tão complicada, em vez de digitalmente, como um computador", explica Michael Hahn.
Hahn, professor de Linguística Computacional na Universidade do Sarre, tem examinado essa questão juntamente com seu colega Richard Futrell, da Universidade da Califórnia, Irvine. O artigo foi publicado na revista Nature Human Behaviour .
Por que a linguagem não é um código binário?
Codificar informações em uma sequência binária clássica de uns e zeros seria, pelo menos em teoria, muito mais eficiente, pois comprime as informações de forma muito mais compacta do que as linguagens naturais. Então, por que não nos comunicamos — metaforicamente falando — como o R2-D2 de Star Wars, mas sim da maneira como falamos? Hahn e Futrell encontraram agora uma resposta para esse enigma.
"A linguagem humana é moldada pelas realidades da vida ao nosso redor", diz Hahn. "Se, por exemplo, eu falasse sobre metade de um gato emparelhado com metade de um cachorro e me referisse a isso usando o termo abstrato 'gol', ninguém saberia o que eu queria dizer, pois é quase certo que ninguém jamais viu um gol — simplesmente não reflete a experiência vivida de ninguém."
"Da mesma forma, não faz sentido misturar as palavras 'gato' e 'cachorro' em uma sequência de caracteres que usa as mesmas letras, mas é impossível de interpretar", continua ele.
"Simplesmente não seríamos capazes de processar uma sequência como 'gadcot', mesmo que tecnicamente contenha as letras de ambas as palavras. Em contraste, a frase 'gato e cachorro' forma uma unidade linguística significativa porque as duas palavras 'gato' e 'cachorro' se referem a animais com os quais praticamente todos estão familiarizados."
A preferência do cérebro por padrões familiares
Hahn resume as principais conclusões do estudo da seguinte forma: "Simplificando, é mais fácil para o nosso cérebro seguir o que pode parecer o caminho mais complicado."
Embora a informação não esteja em sua forma mais compacta, a carga computacional para o cérebro é muito menor, pois o cérebro humano processa a linguagem em constante interação com o ambiente natural familiar. Codificar a informação em um formato digital puramente binário pode parecer mais eficiente, já que a informação pode ser transmitida em menos tempo, mas tal código estaria dissociado de nossa experiência no mundo real.
Hahn afirma que o trajeto diário para o trabalho oferece uma boa analogia: "Em nosso trajeto habitual, a rota é tão familiar que dirigir é quase como estar no piloto automático. Nosso cérebro sabe exatamente o que esperar, então o esforço necessário é muito menor. Fazer um trajeto mais curto, porém menos familiar, parece muito mais cansativo, pois a nova rota exige que estejamos muito mais atentos durante a viagem."
Matematicamente falando: "O número de bits que o cérebro precisa processar é muito menor quando falamos de maneira familiar e natural."
Como a estrutura da linguagem auxilia a compreensão
Codificar e decodificar informações digitalmente exigiria, portanto, um esforço cognitivo significativamente maior tanto para o falante quanto para o ouvinte. Em vez disso, o cérebro humano calcula continuamente as probabilidades de palavras e frases ocorrerem em sequência e, como usamos nossa língua materna diariamente por dezenas de milhares de dias ao longo da vida, esses padrões de sequência se tornam profundamente enraizados, reduzindo ainda mais a carga computacional.
Hahn oferece outro exemplo: "Quando eu digo a frase alemã 'Die fünf grünen Autos' (em português: 'os cinco carros verdes'), a frase quase certamente fará sentido para outro falante de alemão, enquanto 'Grünen fünf die Autos' (em português: 'cinco carros verdes') não fará", diz ele.
Considere o que acontece quando um falante pronuncia a frase "Die fünf grünen Autos". Ela começa com o artigo definido alemão "Die". Nesse ponto, um ouvinte de língua alemã já saberá que a palavra "Die" provavelmente indica um substantivo feminino singular ou um substantivo plural de qualquer gênero. Isso permite que o cérebro descarte imediatamente substantivos masculinos ou neutros singulares.
A próxima palavra, "ünf", provavelmente se refere a algo contável, o que descarta conceitos não enumeráveis como "amor" ou "sede". A palavra seguinte na sequência, "grünen", indica ao ouvinte que o substantivo ainda desconhecido estará no plural e será de cor verde. Poderia ser carros, mas também poderia ser bananas ou rãs.
Somente quando a palavra final da sequência, "Autos", é pronunciada, o cérebro resolve a ambiguidade restante. À medida que a frase se desenrola, o número de possibilidades interpretativas diminui até que (na maioria dos casos) reste apenas uma interpretação final.
No entanto, na frase "Grünen fünf die Autos" (em português: "cinco carros verdes"), essa cadeia lógica de previsões e correlações se rompe. Nosso cérebro não consegue construir significado a partir da expressão porque a sequência esperada de pistas é interrompida.
Implicações para a inteligência artificial
Hahn e seu colega americano Futrell demonstraram agora essas relações matematicamente. Suas descobertas podem ser valiosas, por exemplo, no desenvolvimento futuro de grandes modelos de linguagem (LLMs) que sustentam sistemas de IA generativa, como o ChatGPT ou o Copilot da Microsoft.
Mais informações: Richard Futrell et al, Linguistic structure from a bottleneck on sequential information processing, Nature Human Behaviour (2025). DOI: 10.1038/s41562-025-02336-w
Informações sobre o periódico: Nature Human Behaviour